Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
人类和动物探索他们的环境,即使在没有明确目标的情况下,也可以获得有用的技能,表现出内在的动机。人工代理中的内在动机研究涉及以下问题:代理人的良好通用目标是什么?我们在动态部分观测的环境中研究了这个问题,并争辩说,紧凑且一般的学习目标是最大限度地减少使用潜在的状态空间模型估算的代理国家探索的熵。该目标诱使代理人与其环境收集有关其环境的信息,相应降低不确定性,并控制其环境,相应降低未来世界州的不可预测性。我们将这种方法实例化为配备深层变分贝叶斯过滤器的深度加固学习代理。我们发现我们的代理商学会发现,代表和锻炼在没有外在奖励的视觉观测中感受到的各种部分观测的环境中的动态对象。
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
REED继电器是功能测试的基本组成部分,与电子产品的成功质量检查密切相关。为了为REED继电器提供准确的剩余使用寿命(RUL)估计,根据以下三个考虑,提出了具有降解模式聚类的混合深度学习网络。首先,对于REED继电器,观察到多种降解行为,因此提供了基于动态的$ K $ -MEANS聚类,以区分彼此的退化模式。其次,尽管适当的功能选择具有重要意义,但很少有研究可以指导选择。提出的方法建议进行操作规则,以实施轻松实施。第三,提出了用于剩余使用寿命估计的神经网络(RULNET),以解决卷积神经网络(CNN)在捕获顺序数据的时间信息中的弱点,该信息在卷积操作的高级特征表示后结合了时间相关能力。通过这种方式,lulnet的三种变体由健康指标,具有自组织地图的功能或具有曲线拟合的功能构建。最终,将提出的混合模型与典型的基线模型(包括CNN和长期记忆网络(LSTM))进行了比较,该模型通过具有两个不同不同降级方式的实用REED继电器数据集进行了比较。两种降解案例的结果表明,所提出的方法在索引均方根误差方面优于CNN和LSTM。
translated by 谷歌翻译
在心理实验期间,使用选择反应时间数据观察人类决策行为。该数据的漂移扩散模型由维纳(Wiener)的第一邮箱时间(WFPT)分布组成,并通过认知参数描述:漂移速率,边界分离和起点。这些估计的参数是神经科学家的感兴趣,因为它们可以映射到决策过程的特征(例如速度,谨慎和偏见),并且与大脑活动有关。观察到的RT模式还反映了从神经动力学介导的试验到试验的认知过程的可变性。我们调整了基于SINCNET的浅神经网络体系结构,以使用每项实验试验中的EEG信号符合漂移扩散模型。该模型由SINCNET层,深度空间卷积层和两个单独的FC层组成,可预测每个试验的漂移速率和边界。 SINCNET层参数化了内核,以直接学习应用于脑电图数据以预测漂移和边界参数的带通滤波器的低和高截止频率。在训练过程中,通过最大程度地降低给定试验RT的WFPT分布的负模可能性函数来更新模型参数。我们为执行两项强制选择任务的每个参与者开发了单独的决策SINCNET模型。我们的结果表明,与训练和测试数据集中的中位数估计相比,漂移和边界的单试估计在预测RT方面的性能更好,这表明我们的模型可以成功地使用EEG特征来估计有意义的单试扩散模型参数。此外,浅层SINCNET体系结构确定了与证据积累和谨慎相关的信息处理的时间窗口以及反映每个参与者中这些过程的EEG频段。
translated by 谷歌翻译
Sleepiotm是一种数字手机和网络平台,使用认知行为疗法(CBT)的技术来改善睡眠困难患者的睡眠。作为此过程的一部分,Sleepio捕获了有关已处理此类数据的用户睡眠行为的数据。对于神经网络,数据的规模是训练可转换为实际临床实践的有意义模型的机会。与创建和利用Sleepio的Therapeutics公司Big Health合作,我们分析了401,174个睡眠日记的随机样本中的数据,并建立了一个神经网络,以个性化的方式对每个人的睡眠行为和睡眠质量进行建模。我们证明,该神经网络比过去10天的行为预测个人的睡眠质量比标准统计方法更准确。我们比较代表各种场景的各种超参数设置中的模型性能。我们进一步表明,神经网络可用于提出个性化建议,以了解用户应遵循的睡眠习惯以最大程度地提高睡眠质量,并证明这些建议比标准方法生成的建议要好得多。我们最终表明,神经网络可以解释给每个参与者的建议,并计算每个预测的置信区间,所有这些预测对于临床医生能够在临床实践中采用这种工具至关重要。
translated by 谷歌翻译
高质量数据对于现代机器学习是必需的。但是,由于人类的嘈杂和模棱两可的注释,难以获取此类数据。确定图像标签的这种注释的聚合导致数据质量较低。我们提出了一个以数据为中心的图像分类基准,该基准具有9个现实世界数据集和每个图像的多次注释,以调查和量化此类数据质量问题的影响。我们通过询问如何提高数据质量来关注以数据为中心的观点。在数千个实验中,我们表明多个注释可以更好地近似实际的基础类别分布。我们确定硬标签无法捕获数据的歧义,这可能会导致过度自信模型的常见问题。根据呈现的数据集,基准基准和分析,我们为未来创造了多个研究机会。
translated by 谷歌翻译
最近,现场流动估计的神经网络在汽车数据(例如Kitti基准测试)上显示出令人印象深刻的结果。但是,尽管使用了复杂的刚性假设和参数化,但此类网络通常仅限于两个帧对,而这些帧对不允许它们利用时间信息。在我们的论文中,我们通过提出一种新型的多帧方法来解决这一缺点,该方法考虑了前一个立体对。为此,我们采取了两个步骤:首先,基于最近的Raft-3D方法,我们通过合并改进的立体声方法来开发高级的两框基线。其次,甚至更重要的是,利用RAFT-3D的特定建模概念,我们提出了一个像U-NET这样的U-NET架构,该体系结构执行了向前和向后流量估计的融合,因此允许按需将时间信息集成。 KITTI基准测试的实验不仅表明了改进的基线和时间融合方法的优势相互补充,而且还证明了计算的场景流非常准确。更确切地说,我们的方法排名第二,对于更具挑战性的前景对象来说,总的来说,总比原始RAFT-3D方法的表现超过16%。代码可从https://github.com/cv-stuttgart/m-fuse获得。
translated by 谷歌翻译